0
本文作者: 周蕾 | 2020-05-29 13:10 | 專題:金融聯(lián)邦學(xué)習(xí)公開課 |
近日,富數(shù)科技安全計(jì)算首席專家卞陽做客雷鋒網(wǎng)公開課,以《隱私計(jì)算重構(gòu)邊界,聯(lián)邦學(xué)習(xí)重新定義大數(shù)據(jù)》為題進(jìn)行分享。
卞陽在課程中用武林各大門派做例子,詳細(xì)分析了聯(lián)邦學(xué)習(xí)和隱私計(jì)算安全部分的主要算法原理,以及聯(lián)邦學(xué)習(xí)如何實(shí)現(xiàn)跨越數(shù)據(jù)要素邊界,在供應(yīng)鏈金融、聯(lián)合營銷、金融機(jī)構(gòu)存客促活等具體場景中落地應(yīng)用。
關(guān)注微信公眾號 AI金融評論 ,在公眾號聊天框回復(fù)“聽課”,進(jìn)群可收看本節(jié)課程視頻回放。
以下為卞陽課程全場回顧和互動問答精選,雷鋒網(wǎng)AI金融評論做了不影響原意的編輯:
感謝大家能在周五參加公開課。我叫卞陽,來自富數(shù)科技。
數(shù)據(jù)有多重要?早期的語音識別有這樣一個情況:男聲識別率很高,但女聲識別率很低——因?yàn)椋ㄓ糜谟?xùn)練的)素材語料太少。
如果兩家公司對比,算法水平高和數(shù)據(jù)量很多,哪家的人工智能會做得更好?一般是數(shù)據(jù)更多的那家,因?yàn)樗梢圆粩鄡?yōu)化算法。
今天主要和大家交流隱私計(jì)算、聯(lián)邦學(xué)習(xí),以及它們與數(shù)據(jù)、大數(shù)據(jù)的關(guān)系。
現(xiàn)在人工智能處處可見,有觀點(diǎn)說人工智能會定義業(yè)務(wù)邊界,其實(shí)安全也有相同的特點(diǎn)。數(shù)字化時代如果沒有安全,業(yè)務(wù)也很難展開。
安全和人工智能之間是何關(guān)系?未來若無智能,安全難以實(shí)現(xiàn);若無安全可言,人工智能亦無用武之地。
從信息論的角度來看,人工智能和密碼學(xué)頗為有趣,二者實(shí)為一對悖論。
人工智能是數(shù)據(jù)經(jīng)過加工,提取其中信息,訓(xùn)練后變成知識。這是熵減的過程:熵越少,可用性就越高。
密碼學(xué)正好相反:隱藏有用的信息,編碼、打亂,變成另外一個空間的數(shù)據(jù)。這是信息熵增的過程,可用性越來越低。
但現(xiàn)在既想做安全,又想得到更強(qiáng)大的AI,得到更多的知識,如何是好?
如下圖所示,原始數(shù)據(jù)處理后,變?yōu)槊撁魯?shù)據(jù),信息量減少。但這并不足夠,還需要對中間數(shù)據(jù)進(jìn)行加密——(這些步驟)都是隱私計(jì)算范圍。
但這并沒有結(jié)束,還需從中提取有價值的信息,引入聯(lián)邦學(xué)習(xí),提取更多知識。
以前聯(lián)邦學(xué)習(xí)、人工智能和安全頗有些井水不犯河水的意思,互相關(guān)系不大。
2016年,歐盟制定GDPR,于2018年正式生效。而谷歌正是在2016年提出的聯(lián)邦學(xué)習(xí)——這時,人工智能跟密碼學(xué)的交集變多。
而當(dāng)聯(lián)邦學(xué)習(xí)逐漸成為熱點(diǎn),跟隱私計(jì)算的重合度就越來越高。
下一階段,在完全數(shù)字化時代,(人工智能與安全)二者很可能越來越深度融合。比如信通院制定了多方安全計(jì)算的數(shù)據(jù)流通產(chǎn)品標(biāo)準(zhǔn),聽上去是安全相關(guān),但也包含了機(jī)器學(xué)習(xí)。
聯(lián)邦學(xué)習(xí)的框架,不可避免會與安全相關(guān)。信通院也在制定聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn),當(dāng)中也有不少關(guān)于安全的內(nèi)容,于是變成了你中有我、我中有你的狀態(tài)。
“聯(lián)邦學(xué)習(xí)里的安全怎么做?”這是必然要討論的問題。之前很多專家已分享聯(lián)邦學(xué)習(xí)的算法原理,安全方面相對講得不多,我們這次會側(cè)重隱私計(jì)算方面來談。
若以江湖門派類比,安全多方計(jì)算(MPC)是少林派:歷史悠久,功力深厚,最早可以追溯到上世紀(jì)80年代,有秘密共享、傳輸混淆電路等一些非常強(qiáng)大的獨(dú)門武器。
武當(dāng)派可以對應(yīng)到同態(tài)加密。武當(dāng)派的特點(diǎn)是簡潔、優(yōu)雅,同態(tài)加密也類似:表達(dá)式清晰明了,實(shí)現(xiàn)起來卻很復(fù)雜。真正要做到全同態(tài)其實(shí)很難。
后起之秀華山派,可信計(jì)算環(huán)境(TEE)。當(dāng)然,TEE跟聯(lián)邦學(xué)習(xí)關(guān)聯(lián)度較低,但也不排除某些聯(lián)邦學(xué)習(xí)解決方案能與TEE有所結(jié)合。
除此之外,還有像盲簽名、隱私信息檢索、零知識證明等這些相對更小的密碼學(xué)協(xié)議分支,同樣非常有用,好比泰山派峨眉派,它們共同組成了豐富多彩的隱私計(jì)算江湖。
共享這個詞有點(diǎn)讓人誤解,它并不是把各自的秘密數(shù)據(jù)真的共享了,而是各自的秘密還是可以得到安全的保護(hù),但可以一起去計(jì)算得到結(jié)果,這個結(jié)果是可以共享的。
秘密共享的安全協(xié)議里,有數(shù)據(jù)的提供方,另外還有計(jì)算方,當(dāng)然計(jì)算方跟提供方可以合二為一。
對比一下秘密共享跟同態(tài)加密的差別:同態(tài)加密是由一方提供密鑰,計(jì)算是在一個環(huán)境一方進(jìn)行的。秘密共享叫安全多方,所以是在多方進(jìn)行計(jì)算,有這樣一個特點(diǎn)。
比如說提供方1有個數(shù),以加法為例,提供方把數(shù)切片,有幾個計(jì)算方就切成幾片。切完之后有一片留在自己手上,不發(fā)給別人,其他片分發(fā)。實(shí)際怎么切片,也有很多方法,不是只有一個算法。
現(xiàn)在先理解切成多片,每一方也會拿到其他方的切片,拿到以后就在本地做計(jì)算,比如說x1+y1+z1,這就是一個加法,加起來形成新的等式。c1c2c3就屬于中間結(jié)果,最后要求和,中間結(jié)果已經(jīng)把各方的秘密混在一起了。
聯(lián)邦學(xué)習(xí)的計(jì)算表達(dá)式里,往往有多方數(shù)據(jù),聽起來很復(fù)雜,但通過這個方式,實(shí)際上沒有那么復(fù)雜。
當(dāng)然,秘密共享有安全條件,即安全門限。n-1的安全性,但(兩方的情況下)n-1=1,所以兩方加法不存在安全模型,必須要多方。
但在聯(lián)邦學(xué)習(xí)當(dāng)中,很可能建模只有兩方,這是否會出現(xiàn)一方推算另一方的情況?
從信息論熵增熵減的理論來看,(為了避免這種情況)表達(dá)式不能夠太簡單。好在機(jī)器學(xué)習(xí)計(jì)算往往是矩陣集合計(jì)算,這樣復(fù)雜的表達(dá)式計(jì)算完會變成一個值,不可能由此反推原始數(shù)據(jù)。所以越復(fù)雜的計(jì)算,安全性越高。
光有加法不夠,還需要有乘法,但乘法復(fù)雜度比加法更高,原理類似。
安全多方計(jì)算有兩個優(yōu)點(diǎn):一是過程更加對等,不需要第三方拿了一個公鑰或私鑰去生成,其他方都依賴它進(jìn)行加密解密。二是結(jié)果可以按照協(xié)議,分發(fā)給相對應(yīng)的參與方。
同態(tài)加密(的原理是),誰有密鑰,肯定需要他去解密,安全性原理有所不同。
有些場合很難找到可信第三方,這時正是安全多方計(jì)算的發(fā)揮空間。除了乘法和加法,還有其他更復(fù)雜的計(jì)算,比如機(jī)器學(xué)習(xí)里面有 log、指數(shù)等,這些運(yùn)算都可以用乘法和加法來構(gòu)造。不管運(yùn)算多復(fù)雜,理論上都可以用多方安全技術(shù)求解。
第二個是密碼學(xué)里非常重要的茫然傳輸,也叫不經(jīng)意傳輸(Oblivious Transfer,OT),是聯(lián)邦學(xué)習(xí)做安全對齊的必備。
比如Alice手上有兩個信息,Bob想要其中一個,但是不希望Alice知道他拿了哪一個。
密碼學(xué)可以把協(xié)議構(gòu)造更復(fù)雜些,比如n個信息里取其一,或取m個,取出數(shù)量不能超出約定。既要有正確性,還要有安全性,這就是OT協(xié)議。
安全多方計(jì)算里面還有個“武器”混淆電路,由圖靈獎獲得者姚期智老師發(fā)明。
原理是:假如所有的輸入都轉(zhuǎn)成0和1,進(jìn)行比特的「與非或」門電路計(jì)算,最后得到一個結(jié)果。
但是Alice和Bob的輸入,都不希望另外一方知道,通過生成門電路處理,最后拿到的一個結(jié)果無法反推雙方的輸入。
如何在兩方間構(gòu)造電路?如果是在對方那里運(yùn)行,不可避免要將輸入(內(nèi)容)給到對方,或者從對方拿(結(jié)果)。這時,不經(jīng)意傳輸就派上用場了,對方無從得知你拿走了哪一個,這就隱藏掉自己的一個信息。
所以,多方安全計(jì)算的混淆電路和茫然傳輸之間有關(guān)系,這些都是比較底層的理論。安全協(xié)議密碼學(xué)的這些內(nèi)容,構(gòu)成了聯(lián)邦學(xué)習(xí)的安全基礎(chǔ)。
大數(shù)據(jù)這個詞,從提出到現(xiàn)在已經(jīng)很多年。早期,大家更多采用內(nèi)部數(shù)據(jù),隨后逐漸發(fā)現(xiàn)外部數(shù)據(jù)很有價值,就希望獲得盡可能多的外部數(shù)據(jù)。但在國內(nèi)外監(jiān)管法律法規(guī)下,獲取外部數(shù)據(jù)存在合規(guī)要求,大數(shù)據(jù)(的發(fā)展)也就受限。
數(shù)據(jù)如今已是生產(chǎn)要素。聯(lián)邦學(xué)習(xí)怎樣讓AI跨越數(shù)據(jù)要素邊界?這就是前文所述的“武器”如何運(yùn)用。
在做機(jī)器學(xué)習(xí)之前,往往需要完成對齊的動作。如果不知道兩邊的樣本,也不清楚如何使用,學(xué)習(xí)自然無法進(jìn)行。
舉例:Alice和Bob各有一個樣本集,兩邊怎么安全對齊ID?首先要處理自己樣本里的ID,這是一個加密的過程。我們可以這樣理解:
Step 1:把自己信息和一張復(fù)寫紙放到信封里,給到 Bob。
Step 2:Bob在信封上簽名蓋章,再返回給Alice。
Step 3:Alice拿到之后打開信封,去掉掩碼,但因?yàn)橛袕?fù)寫紙,所以Bob的簽名也印到了Alice給的信息上。
Step 4:Bob把自己手上每個ID也做簽名。
因?yàn)橹挥兴约河兴借€,所以Alice無法生成這些ID。也正因?yàn)镮D經(jīng)過哈希后用私鑰簽名,Alice即使拿到信息,也無法判斷對應(yīng)關(guān)系,只有她自己去掉了掩碼就事先拿到Bob簽名的這批ID,才能正好匹配上了。
如果Alice手上沒有ID,肯定匹配不上。如果她有一個ID,Bob那邊沒有,Bob自然也無法生成一個帶了自己簽名的信息。
但這并不是公平對等的方案,因?yàn)锳lice獲得了一定的信息不對稱優(yōu)勢:為什么是她先知道Bob哪些ID跟她有對齊?
好在密碼學(xué)還有很多種武器,其中比特承諾就是更公平的一種方案,可以保證參與雙方通過一種公平的方式來交換信息,參與者相互間要么都能得到對方的信息,要么都得不到。
安全對齊真的安全嗎?用戶哪些ID的數(shù)據(jù)參與了后面的機(jī)器學(xué)習(xí),在一些場景中也是敏感的,能隱藏ID嗎?這就變成更復(fù)雜的問題了。
所以樣本對齊有三個層次的安全:第一個,比較簡單的盲簽名的安全對齊,但不太公平。第二種是安全公平的交換,第三種要隱藏被匹配到模型中的ID。
對于第三種,密碼學(xué)也有辦法解答。行業(yè)中有人提出差分隱私方案,復(fù)雜度很高,噪音的加入也會導(dǎo)致模型效果有損失。我們也有另外的一些安全手段,有興趣大家可以進(jìn)一步交流。
不可避免地,做聯(lián)邦學(xué)習(xí)一定要有安全計(jì)算。
我們知道聯(lián)邦學(xué)習(xí)有不同的流派,縱向、橫向、遷移。橫向聯(lián)邦學(xué)習(xí)的實(shí)現(xiàn)相對簡單,因?yàn)樵诒镜鼐涂梢杂?xùn)練,模型再到云端匯總。
但縱向就比較復(fù)雜,一邊是y變量,一邊是x變量。一個表達(dá)式里既有x本方的變量,又有對方的變量,怎么算出結(jié)果?
聽上去不可思議,好在有前面提到的多方安全計(jì)算,即使表達(dá)式里有n方數(shù)據(jù),也可以從最簡單的加法乘法開始構(gòu)造。只要實(shí)現(xiàn)了這兩個方法,就能將表達(dá)式求值,還能約定表達(dá)式結(jié)果值如何分配。
用同態(tài)加密做聯(lián)邦學(xué)習(xí),相對簡單,但限制也更多一些,會需要第三方協(xié)助。但在實(shí)際商業(yè)場景中往往很難找到第三方。此時,多方安全計(jì)算就有它的用武之地。MPC(多方安全計(jì)算)的多方安全,名詞本身和“聯(lián)邦”更對應(yīng),參與方的關(guān)系也更加對等,可以在無可信第三方的情形下進(jìn)行計(jì)算,完成建模學(xué)習(xí)。
聯(lián)邦學(xué)習(xí)如果沒有好的數(shù)據(jù),訓(xùn)練效果很難優(yōu)秀。為保證數(shù)據(jù)質(zhì)量,訓(xùn)練前需要進(jìn)行聯(lián)邦特征工程。
從名詞上可以看出,無論是計(jì)算IV值、計(jì)算共線性,還是像importance這樣用于篩選變量的值,也是用聯(lián)邦方式來產(chǎn)生的。
在無法獲取對方數(shù)據(jù)的情況下,如何操作執(zhí)行聯(lián)邦特征工程?我們通過可視化交互界面,共同做安全計(jì)算,能計(jì)算出特征IV值,還可以選擇多種分箱方式。
有了這個特征工程以后,也可以判斷對方的數(shù)據(jù)質(zhì)量,發(fā)現(xiàn)那些對接下來的建模有用的特征字段。
正如前文所述,聯(lián)邦學(xué)習(xí)需要一個發(fā)起方,不可能兩邊都操作或都不操作,總歸有一方在做具體主要的動作,當(dāng)然另外一方可以去做審核和批準(zhǔn)動作,有權(quán)限管控。
進(jìn)行聯(lián)邦學(xué)習(xí)不光需要底層算法,同時也需要一個操作控制友好的界面。
另外還有探索性分析,比如說是否有異常值、缺失值,可以預(yù)先設(shè)定好規(guī)則,自動過濾日常值,更好控制訓(xùn)練質(zhì)量。
聯(lián)邦學(xué)習(xí)最核心的,肯定是機(jī)器學(xué)習(xí)算法。下圖是機(jī)器學(xué)習(xí)已完成任務(wù)示意圖。
聯(lián)邦學(xué)習(xí)過程中,網(wǎng)絡(luò)上兩方或多方共同計(jì)算,如果了解不到計(jì)算狀態(tài),我們很難給出適當(dāng)判斷。聯(lián)邦學(xué)習(xí)的性能比單機(jī)本地要慢很多,訓(xùn)練幾十分鐘甚至更長時間都非常正常。在參與方之間需要將訓(xùn)練過程可視化。
不同的場景下,算法變化會很多。為實(shí)際適應(yīng)各種場景,需要有盡可能豐富的聯(lián)邦學(xué)習(xí)算法。
當(dāng)企業(yè)發(fā)現(xiàn)自己數(shù)據(jù)有限,要和對方外部合作。數(shù)據(jù)獲取不到,互相不信任,或者有合規(guī)上的隱患。這時通過聯(lián)邦學(xué)習(xí),數(shù)據(jù)會變得更易用。拿不到數(shù)據(jù)本身,但能能拿到數(shù)據(jù)的能力。
企業(yè)也希望使用過程盡可能簡單方便,比如哪些數(shù)據(jù)可用、授權(quán)權(quán)限管理;希望可以發(fā)現(xiàn)、搜索有價值的資源,在合作的雙方或多方相互能發(fā)現(xiàn),有點(diǎn)像微信那樣加好友才能連上對方、驗(yàn)證通過。
之后怎么合作?有一方創(chuàng)建合作的項(xiàng)目,對方有什么樣的數(shù)據(jù)資源,是y變量還是x變量,橫向還是縱向,都可以可視化創(chuàng)建合作項(xiàng)目,在合作項(xiàng)目中約定,之后就可以進(jìn)行安全數(shù)據(jù)處理。虛擬融合就是安全對齊的過程,形成看上去是虛擬的樣本集,實(shí)際上還是分布的。然后選一個聯(lián)邦學(xué)習(xí)算法,在虛擬融合集上進(jìn)行訓(xùn)練。
聯(lián)邦學(xué)習(xí)結(jié)束后,它還是一個分布的模型,參與方各有各的子模型,所以聯(lián)邦模型的使用,也要用到安全多方計(jì)算。
各方有自己的數(shù)據(jù)和子模型,在表達(dá)式或數(shù)的模型里,它的服務(wù)計(jì)算結(jié)構(gòu)也是不一樣的。所以說我們還要支持把模型部署為服務(wù),變成像API那樣可以對外提供,這樣才形成一個閉環(huán)。
通過聯(lián)邦學(xué)習(xí),本來外部拿不到的數(shù)據(jù),可以因此跨越邊界,獲得大數(shù)據(jù)能力,成為真正的大數(shù)據(jù)。
如果能夠拿到各種各樣的維度,在商業(yè)競爭中肯定有更加明顯的優(yōu)勢。聯(lián)邦學(xué)習(xí),能夠讓企業(yè)獲得了更強(qiáng)大的能力,就像上帝視角那樣,得到高維打低維的優(yōu)勢。
從具體案例來看,富數(shù)科技在2017年就立項(xiàng)做多方安全計(jì)算,那也是網(wǎng)絡(luò)安全法生效的一年。
我們當(dāng)時就覺得,數(shù)據(jù)安全非常重要,也需要有一種更好的方式來使用,所以發(fā)起了開源項(xiàng)目Unitedata,有多家合作單位聯(lián)合研究。
2018年,我們的UD聯(lián)盟系統(tǒng)上線,已有部分落地應(yīng)用的案例執(zhí)行;2019年,信通院多方安全計(jì)算的相關(guān)標(biāo)準(zhǔn)出臺后,我們也參與其中。富數(shù)安全計(jì)算聯(lián)邦學(xué)習(xí)平臺阿凡達(dá)(Avatar)也是最早通過信通院產(chǎn)品認(rèn)證的。
為什么叫阿凡達(dá)?眾所周知,這部電影是說地球人通過“阿凡達(dá)”這個化身進(jìn)入到外星世界,本體沒有轉(zhuǎn)移。這個外星空間里,納美人的頭發(fā)就是一種神經(jīng)元,由此連到靈魂樹,互相達(dá)成共識。
這點(diǎn)十分有趣,我們覺得這跟聯(lián)邦學(xué)習(xí)異曲同工:本體不轉(zhuǎn)移,以及相互連接達(dá)成更廣泛共識。所以阿凡達(dá)的意義是數(shù)字的世界里相互連接,形成更開放生態(tài)。
富數(shù)Avatar平臺支持私有化部署,其中有兩個核心模塊:底層聯(lián)邦學(xué)習(xí)算法模塊,加密計(jì)算模塊。正如同計(jì)算機(jī)不光有 CPU,還需要有GPU一樣,有兩個核心共同工作才能夠?qū)崿F(xiàn)聯(lián)邦學(xué)習(xí)。
使用阿凡達(dá)的兩家機(jī)構(gòu),他們可自身直接達(dá)成連接,不經(jīng)過包括富數(shù)在內(nèi)的任何第三方,就可以完成各種聯(lián)邦學(xué)習(xí)項(xiàng)目。
供應(yīng)鏈金融里的應(yīng)收賬款,銀行需要稅務(wù)開票數(shù)據(jù),但不容易拿到。
在一些項(xiàng)目中,企業(yè)若無授權(quán),外部很難拿到數(shù)據(jù),即便拿到也只是單個小的數(shù)據(jù)。但只拿一條數(shù)據(jù),沒法完成聯(lián)邦學(xué)習(xí),得要幾千、幾萬條稅務(wù)的數(shù)據(jù)和銀行的資金流水。
一邊是銀行資金交易信息,一邊是經(jīng)營信息來進(jìn)行訓(xùn)練,兩邊維度不同,也沒法匯集到一起,這在以前難度非常大。
讓銀行把數(shù)據(jù)放進(jìn)安全沙箱是辦法之一,但沙箱數(shù)據(jù)要出庫有風(fēng)險,這就導(dǎo)致:雖然我們希望公共服務(wù)數(shù)據(jù)能夠?qū)ν赓x能,實(shí)際操作中卻遇到安全隱患。
通過聯(lián)邦學(xué)習(xí),比如銀行方企業(yè)交易數(shù)據(jù)仍由本地安全保護(hù),同時可以連接到公共服務(wù)數(shù)據(jù)的開放平臺。數(shù)據(jù)資源在開放平臺上陳列可供選擇,審核后運(yùn)行算法,看最終效果。
這樣一來,當(dāng)小微企業(yè)想要去申請銀行貸款,銀行就有更適合的模型來判斷。
有些企業(yè)可能其實(shí)很大風(fēng)險,經(jīng)營情況不太穩(wěn)定,由于銀行可以拿到更豐富的數(shù)據(jù),比如從用電數(shù)據(jù)判斷企業(yè)經(jīng)營趨勢,在風(fēng)控模型上做得更好,預(yù)防潛在風(fēng)險。貸前、貸中管理和實(shí)時監(jiān)測,也很需要多方數(shù)據(jù)來訓(xùn)練模型。
上文提到,模型部署成服務(wù),可以做到明細(xì)的數(shù)據(jù)不需要傳到銀行,用這個模型即可計(jì)算出結(jié)果。這對企業(yè)來說,授權(quán)的范圍可以進(jìn)一步縮小。不管是公共服務(wù)部門還是大數(shù)據(jù)機(jī)構(gòu),對于掌握數(shù)據(jù)方而言,數(shù)據(jù)安全性也更高,避免了數(shù)據(jù)在使用的過程中被留存,或者面臨更大風(fēng)險。
品牌商想和合作方聯(lián)合營銷,必然要對用戶做一些判斷:哪些用戶適合什么類型的產(chǎn)品?但些信息是汽車廠商自己掌握,大數(shù)據(jù)平臺很難判斷。
之前需要汽車廠商把CRM之類的信息,在大數(shù)據(jù)能力開放平臺里建模,即駐場式建模。但對品牌商來說,數(shù)據(jù)放出去也存在隱患。
通過阿凡達(dá)聯(lián)邦學(xué)習(xí),可以利用大數(shù)據(jù)平臺更大維度的數(shù)據(jù)——實(shí)際使用中可能有上千維度,聯(lián)合建模,再對用戶進(jìn)行分層分群,不同車型能更好匹配潛在用戶,活動轉(zhuǎn)化率和最后效果得到巨大提升。
每家機(jī)構(gòu)都會有大量睡眠客戶,非常希望激活,但它本身是睡眠客戶,很難得到更豐富的信息去判斷。用外部標(biāo)簽判斷客戶,相當(dāng)于把自己的客戶信息泄露出去了。其次,如果不能雙方建模,匹配度也不高。
存量客戶對外進(jìn)行畫像匹配時,也可以通過安全方式去查詢,這跟前面講的盲簽名非常像。然后建模,非常典型的縱向聯(lián)邦學(xué)習(xí)模型,之后可以更好判斷,把客戶分組,不同組對應(yīng)不同營銷策略。
在這個過程中,金融機(jī)構(gòu)并沒有拿到存量客戶更多的信息,消費(fèi)信息、上網(wǎng)行為拿不到,非常合規(guī),但已經(jīng)知道了客戶適合的產(chǎn)品,提升了金融競爭優(yōu)勢。我們在實(shí)操中發(fā)現(xiàn),跟專家模型相比,它的轉(zhuǎn)化率可以提高100%以上。
安全與合規(guī)
用了聯(lián)邦學(xué)習(xí)是否就一定安全合規(guī)?聯(lián)邦學(xué)習(xí)降低了數(shù)據(jù)泄露的風(fēng)險,同時在具體使用中依然需要遵循數(shù)據(jù)合規(guī)的法律要求。安全對齊在某些解決方案或者情況下也還是會存在一定隱患,我們提供了更加公平的、尤其對甲方更加安全的對齊方式,合規(guī)性也更好。梯度泄露、樣本投毒等其他安全挑戰(zhàn),需要有更好的解決方案,畢竟聯(lián)邦學(xué)習(xí)也在不斷成熟和發(fā)展之中。
性能和效率
對聯(lián)邦學(xué)習(xí)熟悉的朋友都知道,聯(lián)邦學(xué)習(xí)的計(jì)算量非常大。以往在本地非常快,不用加密也不用通信,因此(采用聯(lián)邦學(xué)習(xí)后)性能上面往往有兩個數(shù)量級的降低。我們也做了不少優(yōu)化和嘗試,在性能上面還是取得了一些進(jìn)展。
場景適用性
場景很多變,需要不同算法,也不光局限在機(jī)器學(xué)習(xí)。安全查詢就是非常強(qiáng)的需求。有一些情形還沒上升到學(xué)習(xí)的程度,但也要分析得到有用的知識,用多方安全計(jì)算可以解決。
在阿凡達(dá)的解決方案里,從簡單的加密查詢到多方計(jì)算和統(tǒng)計(jì),再到不同的機(jī)器學(xué)習(xí)算法,還有神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等。所以在場景適用性上面,我們也已經(jīng)取得一些成績。
互聯(lián)互通
它是多方的應(yīng)用,兩個解決方案之間若無統(tǒng)一標(biāo)準(zhǔn),聯(lián)邦學(xué)習(xí)要進(jìn)行下去肯定很難。
問:哪些金融細(xì)分領(lǐng)域更適合聯(lián)邦學(xué)習(xí)?,
卞陽:細(xì)分領(lǐng)域非常多,比如保險、反欺詐的應(yīng)用場景,都非常典型。金融非常依賴數(shù)據(jù),只要這個場景需要用到外部數(shù)據(jù),聯(lián)邦學(xué)習(xí)就特別適合。當(dāng)然有些場景是不是一定要用機(jī)器學(xué)習(xí)?像剛才提到的供應(yīng)鏈,其實(shí)雙方在進(jìn)入到機(jī)器學(xué)習(xí)之前,還要做變量的處理。雙方都有變量,還想衍生出新的變量,怎么辦?這種情況用多方安全計(jì)算去衍生新變量,這個變量不反映用戶敏感信息,把變量構(gòu)造出來。
問:供應(yīng)鏈金融場景案例里,聯(lián)邦學(xué)習(xí)和區(qū)塊鏈兩種方案有什么區(qū)別和優(yōu)勢?
卞陽:聯(lián)邦學(xué)習(xí)跟區(qū)塊鏈肯定很大區(qū)別。區(qū)塊鏈不講學(xué)習(xí),共同點(diǎn)都是分布式,在某些情況下也可以相互配合。富數(shù)也有區(qū)塊鏈松耦合的方案,因?yàn)橐喾铰?lián)邦學(xué)習(xí),可以在區(qū)塊鏈進(jìn)行智能合約,約定數(shù)據(jù)的規(guī)格、利益的歸屬,使這個機(jī)制更加公平。
問:自己做的隱私保護(hù)聯(lián)邦深度學(xué)習(xí)模型,用同態(tài)加密太慢,差分隱私保護(hù)效果不好怎么辦?
卞陽:的確,同態(tài)加密性能是一個問題,用MPC可以優(yōu)化,因?yàn)橥瑧B(tài)加密相對來講比較固定和簡潔,但優(yōu)化空間會小。
問:聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn),哪個公司在牽頭制定?
卞陽:這個名詞首先最早提出是谷歌,微眾銀行應(yīng)該是國內(nèi)的一個旗手。所以IEEE會議的標(biāo)準(zhǔn),微眾銀行是發(fā)起方,富數(shù)科技也是標(biāo)準(zhǔn)組的成員。
問:數(shù)據(jù)開放平臺和模型服務(wù)是誰所有的?
卞陽:對數(shù)據(jù)源來講,數(shù)據(jù)開放平臺肯定是屬于數(shù)據(jù)擁有者。模型如果是雙方共建、訓(xùn)練產(chǎn)生的模型,最后生成的模型服務(wù),是看模型調(diào)用過程,包括模型分布情況。除非參與建模的一方,把自己的模型授權(quán)給其他方。如果不授權(quán),那就是共有。
問:休眠客戶的激活,本質(zhì)是對客戶增加標(biāo)簽維度,然后再激活客戶?
卞陽:如何激活,有不同的策略,這時要增加標(biāo)簽的維度。如果因?yàn)椴呗圆缓?,推了他不需要的產(chǎn)品,等于是騷擾,反而對客戶有壞影響,所以銀行要激活休眠客戶的時候也會非常謹(jǐn)慎。提高客戶匹配度,也變得非常重要。
問:各部分標(biāo)注數(shù)據(jù)質(zhì)量有好有壞,聯(lián)邦學(xué)習(xí)可以怎么做?
卞陽:進(jìn)行訓(xùn)練之前,要對數(shù)據(jù)質(zhì)量做聯(lián)邦處理和分析,特征工程和探索性。當(dāng)然這個過程也保護(hù)各方數(shù)據(jù)。統(tǒng)計(jì)性信息能不能給,也要經(jīng)過授權(quán),就可以在進(jìn)入學(xué)習(xí)之前判斷標(biāo)注的數(shù)據(jù)質(zhì)量。如果前面不容易判斷,可以訓(xùn)練出模型再去測試,評估其中維度的數(shù)據(jù)有沒有價值。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章